We describe an approach for empirical modeling of steel phase kinetics based on symbolic regression and genetic programming. The algorithm takes processed data gathered from dilatometer measurements and produces a system of differential equations that models the phase kinetics. Our initial results demonstrate that the proposed approach allows to identify compact differential equations that fit the data. The model predicts ferrite, pearlite and bainite formation for a single steel type. Martensite is not yet included in the model. Future work shall incorporate martensite and generalize to multiple steel types with different chemical compositions.
translated by 谷歌翻译
使用机器学习来描述动态医疗系统是一个充满挑战的主题,具有广泛的应用程序。在这项工作中,描述了纯粹基于测量数据的糖尿病患者血糖水平进行建模的可能性。影响变量胰岛素和卡路里的组合用于寻找可解释的模型。人体外部物质的吸收速度在很大程度上取决于外部影响,这就是为什么添加时间班的原因。重点放在确定最佳时移,这些时移提供具有良好预测准确性的强大模型,这些模型与其他未知的外部影响无关。该建模纯粹基于使用非线性动力学的稀疏鉴定的测量数据。确定一个微分方程,从初始值开始,模拟了血糖动力学。通过将最佳模型应用于测试数据,我们可以证明可以使用微分方程来模拟长期的血糖动力学,很少会影响变量。
translated by 谷歌翻译
快速功能提取(FFX)是用于解决符号回归问题的确定性算法。我们通过将参数添加到非线性函数的参数中提高了FFX的准确性。我们不仅可以优化线性参数,还使用可分离的非线性最小二乘优化优化了这些附加的非线性参数,使用变量投影算法优化。FFX和我们的新算法都应用于PenNML基准套件。我们表明,提议的FFX扩展可以提高准确性,同时提供相似长度的模型,并且在给定数据上的运行时仅增加了运行时。将我们的结果与已经为给定基准套件发布的大量回归方法进行了比较。
translated by 谷歌翻译
工业和科学应用处理大量数据,这些数据使人无法可行。因此,我们需要能够考虑域专家的先验知识的自动数据验证方法,以便对数据质量进行可靠,可信赖的评估。通常可以将知识作为描述目标相互作用的规则,例如目标必须单调减小,并且在增加的输入值之后凸出。域专家能够一目了然地验证多个此类相互作用。但是,现有的基于规则的数据验证方法无法考虑这些约束。在这项工作中,我们根据数据验证的分类准确性和运行时性能比较了不同形状受限的回归算法。
translated by 谷歌翻译
符号回归是一种非线性回归方法,通常通过诸如遗传编程等进化计算方法执行。量化回归模型的不确定性对于模型和决策的解释很重要。线性近似和所谓的似然谱是非线性回归模型计算置信度和预测间隔的众所周知的可能性。到目前为止,这些简单有效的技术在遗传编程文献中已被完全忽略。在这项工作中,我们在详细信息中描述了似然概况的计算,还提供了一些说明性示例,其中使用了两个不同数据集上使用三种不同的符号回归算法创建的模型。这些示例突出了可能性概况的重要性,即了解符号回归模型的局限性,并帮助用户做出明智的预测后决策。
translated by 谷歌翻译
已经证明基于梯度的局部优化可以改善符号回归的遗传编程(GP)的结果。几种最先进的GP实现使用了迭代非线性最小二乘(NLS)算法,例如Levenberg-Marquardt算法进行局部优化。NLS算法的有效性取决于优化问题的适当缩放和条件。到目前为止,这在符号回归和GP文献中被忽略了。在这项研究中,我们使用NLS Jacobian矩阵的奇异值分解来确定数字级别和条件数。我们使用GP实施和六个不同的基准数据集执行实验。我们的结果表明,缺乏等级的雅各布矩阵经常出现,并且对于所有数据集。当限制GP树的大小以及在函数集中使用许多非线性函数时,此问题并不那么极端。
translated by 谷歌翻译
基于原子量表的材料建模在新材料的发展及其特性的理解中起着重要作用。粒子模拟的准确性由原子间电位确定,该电位允许计算原子系统的势能作为原子坐标和潜在的其他特性的函数。基于原理的临界电位可以达到任意水平的准确性,但是它们的合理性受其高计算成本的限制。机器学习(ML)最近已成为一种有效的方法,可以通过用经过电子结构数据培训的高效替代物代替昂贵的模型来抵消Ab始于原子电位的高计算成本。在当前大量方法中,符号回归(SR)正在成为一种强大的“白盒”方法,以发现原子质潜力的功能形式。这项贡献讨论了符号回归在材料科学(MS)中的作用,并对当前的方法论挑战和最新结果提供了全面的概述。提出了一种基于遗传编程的方法来建模原子能(由原子位置和相关势能的快照组成),并在从头算电子结构数据上进行了经验验证。
translated by 谷歌翻译
多目标符号回归具有优点:虽然学习模型的准确性最大化,但复杂性自动调整,不需要指定a-priori。优化的结果不再是单一解决方案,而是整个帕累托 - 前面描述了准确性和复杂性之间的权衡。在这一贡献中,我们研究了在使用NSGA-II进行多目标优化时,在象征性回归中最适当地使用哪些复杂性度量。此外,我们提出了一种新的复杂性度量,包括基于模型中发生的函数符号的语义信息,并在几个基准数据集中测试其效果。结果比较多种复杂度措施的实现准确性和模型长度来呈现,以说明算法的搜索方向如何受到影响。
translated by 谷歌翻译
在材料科学中,衍生模型以预测突出材料特性(例如弹性,强度,电导率)及其与加工条件的关系。主要缺点是校准依赖于处理条件的模型参数。目前,必须优化这些参数以拟合测量数据,因为它们与处理条件(例如变形温度,应变率)的关系不完全理解。我们提出了一种新的方法,该方法识别了基于遗传编程的处理条件的校准参数的功能依赖性。我们提出了两个(显式和隐式)方法来识别这些依赖项并生成短暂的可解释表达式。该方法用于扩展基于物理的组成型模型以进行变形过程。该本结构型模型与内部材料变量(例如位错密度)进行操作,并且包含许多参数,其中包括三个校准参数。衍生的表达式扩展了本组件模型并替换校准参数。因此,启用各种处理参数之间的插值。我们的研究结果表明,隐式方法比明确的方法更昂贵,但也产生明显更好的结果。
translated by 谷歌翻译
Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.
translated by 谷歌翻译